钛媒体 04-12 11:31

跨会话埋雷，AI 毫无察觉！CIK 投毒风险曝光：再安全的大模型也扛不住

📌 一句话：攻击者可在多轮对话中向AI植入恶意指令，使其后续执行危险操作，而AI自身无法察觉。

随着AI大模型在各领域广泛应用，其安全性研究日益重要。近期安全研究人员发现了一种新型攻击方式，能在AI对话过程中植入"定时炸弹"，即使最先进的模型也难以防范。

这研究给行业泼了盆冷水：AI厂商宣称的"安全对齐"在大规模攻击面前可能形同虚设。更值得警惕的是，这类漏洞的修复远比发现更难——它触及的是AI理解人类意图的底层机制。当AI越"聪明"地理解上下文，攻击者也就越容易利用这种能力作恶。安全与智能的平衡，或许将是未来AI发展必须直面的根本性矛盾。

📡 来源：钛媒体

📖 原文链接